The Innovation | 分布式训练与分散式执行: 大规模多智能体协同强化学习新框架
导 读
近年来,大规模多智能体协同强化学习因其广泛的工程应用价值逐渐成为了国内外研究热点。为解决多智能体协同强化学习算法中可扩展性低、动作耦合约束适应性差等瓶颈问题,本文采用嵌入分布式信息交互算法,构建了分布式训练与分散式执行的多智能体协同强化学习框架,成功解决了带有耦合动作约束的多智能体协同强化学习的问题。
大规模多智能体协同强化学习算法在其复杂度、可扩展性、耦合约束适应性等方面面临诸多挑战。近年来,基于集中式训练与分散式执行(CTDE)框架的多智能体协同强化学习算法引起了国内外学者的广泛关注。CTDE中每个智能体使用全局信息训练局部参数,并以分散式的方式执行动作,算法具有一定的可扩展性。然而,多智能体协同强化学习问题中环境的全局信息往往难以获取,且大多数多智能体协同强化学习问题中每个智能体的动作可能会受到其他智能体动作的影响,即联合动作存在耦合约束,导致基于CTDE框架的算法难以解决全局状态未知且带有复杂耦合约束的多智能体协同强化学习问题。实际上,解决带有复杂耦合约束的多智能体协同强化学习问题已成为多智能体协同强化学习算法实用性的重要指标之一。本文通过在CTDE框架中构建并嵌入智能体之间的分布式信息交互算法,提出一种新的分布式强化学习框架——分布式训练与分散式执行(DTDE)。
图1 图文摘要
DTDE算法框架如图1所示,其中每个智能体通过底层通信网络与其相邻智能体进行信息交互,并基于分布式一致性协议分别估计全局的状态信息和奖励信息。记智能体
DTDE的关键步骤如下:
步骤一
基于局部观测信息估计全局状态和全局奖励信息:智能体
步骤二
分布式探索可行的联合动作:每个智能体通过通信网络获得其邻居智能体的信息,并通过分布式探索寻找可行联合动作
步骤三
分布式学习可行的最优联合动作:每个智能体通过最小化TD误差
总结和展望
DTDE框架的优势是利用分布式信息交互处理全局状态未知和耦合动作约束。智能体通过底层网络进行分布式信息交互进而实现对环境全局状态的估计,并基于分布式优化计算可行的最优联合动作。未来工作包括提出几种典型的基于DTDE的多智能体协同强化学习算法,给出算法有效性和最优性的理论分析,并在大规模分布式学习工程任务中验证算法的可行性。
► 扫二维码|查看原文
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(21)00087-4
本文内容来自Cell Press合作期刊The Innovation第二卷第四期以Commentary发表的“DTDE: A new cooperative multi-agent reinforcement learning framework” (投稿: 2021-04-23;接收: 2021-08-07;在线刊出: 2021-09-01)。
DOI: https://doi.org/10.1016/j.xinn.2021.100162
引用格式:Wen G., Fu J., Dai P., et al. (2021). DTDE: A new cooperative multi-agent reinforcement learning framework. The Innovation. 2(4),100162.
作者简介
温广辉,IET Fellow, 教育部青年长江学者,国家优秀青年基金获得者,科睿唯安全球高被引学者(工程领域)。现为东南大学青年首席教授,博士生导师,东南大学智能自主系统安全运维与控制实验室创始主任。2012年博士毕业于北京大学,2013年至今在东南大学任教。主要研究兴趣包括分布式强化学习,集群智能与协同控制,分布式安全控制,智能感知与信息融合,鲁棒控制。曾获2010年中国复杂网络学术会议最佳学生论文奖(独立)。2016年教育部自然科学二等奖(排名第3),2016年中国指挥与控制学会科学技术一等奖(排名第2),2018年澳大利亚ARC DECRA Fellow获得者,2019年亚太神经网络学会青年研究奖(独立),2020年中国指挥与控制学会青年科学家奖(独立)。
Web:https://math.seu.edu.cn/wgh/list.htm
付俊杰:东南大学数学学院副研究员,江苏省双创博士,东南大学至善青年学者。2011年获北京大学学士学位,2017年获北京大学力学系统与控制专业博士学位。主要研究方向为受限多智能体系统协同控制、在线学习自适应控制、安全强化学习等。已发表SCI期刊论文30余篇,申请并受理国家发明专利6项。主持完成国家自然科学基金青年基金一项,江苏省自然科学基金青年基金一项。主持在研军委科技委工程重点专项项目一项,国家自然科学基金面上项目一项。曾获2017北京大学优秀博士学位论文奖等。
周佳玲:南京理工大学自动化学院副教授,2012年获北京交通大学自动化学士学位,2017年获北京大学力学系统与控制博士学位。入选中国科协青年人才托举工程、江苏省双创博士。研究兴趣包括群体智能控制、强化学习、分布式优化与博弈等。
往期推荐
| |||
| |||
| |||
|
| |||
|
|
期刊简介
扫二维码 | 关注期刊官微
The Innovation 是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者们来自全球26个国家;每期1/3-1/4通讯作者来自海外。目前有185位编委会成员,来自21个国家;51%编委来自海外;包含1位诺贝尔奖获得者,26位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus等数据库收录。
期刊官网1(Owner):
www.the-innovation.org
期刊官网2(Publisher):
www.cell.com/the-innovation/home
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
商务合作(Marketing):
marketing@the-innovation.org
Logo|期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们从此走起。
第2卷第3期
第2卷第2期
第2卷第1期
第1卷第3期
第1卷第2期
第1卷第1期